Análisis predictivo de la supervivencia del cáncer de mama mediante datos clínicos y genéticos: un enfoque basado en aprendizaje automático

Análisis exploratorio conjunto de datos NKI

La finalidad de este apartado es realizar un análisis exploratorio de los datos para entender la distribución de las características y su relación con la supervivencia, así como identificar patrones y relaciones entre las variables, a través de pruebas estadísticas o técnicas de selección de variables. También se pretenden seleccionar las variables clínicas y genéticas más relevantes para la predicción de la supervivencia.

En primer lugar, importamos las liberarías necesarias para explorar los datos, así como también definimos las rutas de los ficheros.

Conjunto de datos

Características clínicas

Variable objetivo

Variables genéticas

La parte genética del conjunto de datos contiene expresiones génicas con un total 1554 variables.

Preprocesamiento

Durante el proceso de limpieza, hay que considerar los valores ausentes, los cuales son datos que no se almacenan para una variable en una observación en cuestión. Los datos incompletos pueden distorsionar los resultados, y es por ello que necesitamos verificar que nuestro conjunto de datos no contiene missing values.

La presencia de demasiados datos faltantes en el conjunto de datos puede afectar negativamente a la precisión y exactitud del modelo. En este caso, todos los datos están completos, tanto los clínicos como los genéticos.

A continuación, transformamos el tipo de variables según su significado para una mejor comprensión.

Análisis exploratorio de los atributos clínicos

Distribución de los atributos clínicos

Por lo que respecta a la distribución de los datos numéricos, observamos como algunas características se distribuyen normalmente (como diam), mientras que otras estan sesgadas con muchos valores atípicos (como lymphinfil). Aun así, teniendo en cuenta la importancia de los valores atípicos en los datos de salud, decidimos mantenerlos.

Distribución de la clase objetivo en atributos clínicos numéricos

Para cada una de las variables numéricas, observamos un histograma de densidad y un boxplot con la finalidad de resumir y visualizar la distribución de dichas características. El histograma de densidad proporciona una descripción más detallada de la forma y simetría de la distribución de los datos, mientras que el boxplot resalta las medidas de posición y dispersión, además de identificar valores atípicos. Ambas visualizaciones son complementarias y útiles para explorar y entender las características de un conjunto de datos.

A simple vista, observamos como las variables age y diam muestran diferencias entre los pacientes que sobreviven 5 años y los que no. Tanto en los histogramas como los diagramas de cajas vemos como los pacientes que no sobreviven tienden a ser mayores y a tener un tamaño del tumor más pequeño.

En cambio, la variable posnodes, la cual se encuentra sesgada a la derecha, no muestra una clara diferencia entre ambos grupos. Aun así, observamos como el rango intercuartílico es mayor para los pacientes que sobreviven, y el número de valores atípicos es mayor en los pacientes que mueren.

Por lo que respecta a la variable survival, observamos una clara diferenciación entre los dos grupos. Esto es evidente dado que la variable objetivo survival_5years se ha creado teniendo en cuenta la supervivencia en meses. Los pacientes que seguian vivos a los cinco años de ser diagnosticados, se les ha asignado la categoría survived, mientras que los pacientes que murieron antes se les ha asignado la categoría died. Dicha separación queda reflejada tanto en el histograma como en el diagrama de cajas.

La variable timerecurrence se distribuye de forma muy similar a survival, ya que el tiempo de recurrencia es generalmente el mismo que el tiempo de supervivencia cuando el paciente no muere de cáncer. Teniendo en cuenta esto, nos planteamos la posible afectación de esta variable a la precisión del modelo. Si en el análisis de correlación queda plasmada dicha redundancia, eliminaremos la variable.

Distribución de la clase objetivo en atributos clínicos categóricos

Los gráficos de barras son una forma común y efectiva de visualizar y comparar datos categóricos o discretos. Estos gráficos utilizan barras rectangulares para representar la frecuencia, el conteo, la proporción u otra medida asociada con diferentes categorías. En esta ocasión los usamos para comparar los porcentajes de las categorías de la variable en cuestión, diferenciando la categoría survived y la categoría died de la variable _survival5years.

Antes de nada, hay que tener en cuenta que el conjunto de pacientes que sobrevive 5 años es 5 veces mayor que el grupo de pacientes que no sobrevive 5 años, y por esta razon todas las categorías tienen un mayor porcentaje de pacientes vivos.

De forma concreta, observamos cierta tendencia en las variables grade y lymphinfil. A mayor grado de cáncer, mayor número de pacientes que mueren antes de llegar a los 5 años del diagnóstico. A mayor grado de infiltración linfocítica, menor número de pacientes que no sobreviven 5 años.

La categoría más representada del resto de variables puede encontrarse en el resumen estadístico mostrado.

Según el conjunto de datos, la paciente promedio de cáncer de mama es una mujer de 44 años con un tamaño tumoral promedio de 22 mm con 2 ganglios linfáticos examinados positivos. La paciente tiene una probabilidad del 82% de sobrevivir al menos 5 años después del diagnóstico.

Tratamientos

A continuación, utilizamos el diagrama de Venn para mostrar como se distribuyen los tratamientos que las pacientes han recibido.

La mayoría de los pacientes reciben el tratamiento único amputación, mientras que el tratamiento único administrado con menor frecuencia es el hormonal. Por lo que respecta a la combinación de tratamientos, la más administrada es la quimioterapia junto con la amputación. La quimioterapia con el tratamiento hormonal se ha administrado la misma cantidad de veces que la amputación con el tratamiento hormonal. La combinación de los tres tratamientos se ha administrado a solo 11 pacientes. Mencionar también que hay 87 pacientes que no han recibido ninguno de estos tratamientos.

Estos datos muestran que las pacientes que recibieron todos los tratamientos tienen una tasa de supervivencia del 100%, mientras que las pacientes que no recibieron ninguno tienen una tasa de supervivencia ligeramente superior a la media.

Correlaciones de atributos clínicos

El coeficiente de correlación oscila entre -1 (fuerte correlación negativa) y 1 (fuerte correlación positiva).

Como podemos observar, la mayor correlación corresponde a los atributos timerecurrence y survival como hemos intuido préviamente. El tiempo de timerecurrence es generalmente el mismo que el tiempo de survival cuando el paciente no muere de cáncer. Teniendo en cuenta esto, nos planteamos la posible afectación de esta variable a la precisión del modelo, y para evitar dicha redundancia eliminamos la variable timerecurrence del conjunto de datos.

De la misma manera, survival y _survival5years están correlacionadas postivamente por el hecho que se ha generado una variable a partir de la otra. Para evitar una posible afectación al modelo, eliminamos la variable survival.

eventdeath y _survival5years están correlacionas negativamente, y decidimos eliminar la variable eventdeath.

Mencionar que la decisión de eliminar una de las dos variables se ha tomado basándonos en la correlación con la variable objetivo. Se ha eliminado la que menor correlación tenía con dicha variable (_survival5years).

Aunque aún podemos observar ciertas correlaciones, ya no son tan fuertes como anteriormente (observar que la leyenda de colores tiene límites menores).

A continuación, mostramos únicamente las correlaciones de las variables clínicas con la variable objetivo survival_5years.

En esta ocasión, todas las variables clínicas tienen cierta correlación con la variable objetivo _survival5years. Las características más correlacionadas positivamente son: age, chemo y hormonal, con 0.14, 0.08 y 0.07, respectivamente. Las características más correlacionadas negativamente son: grade, diam y lymphinfil, con -0.37, -0.22 y -0.15, respectivamente.

Análisis exploratorio de los atributos genéticos

En este tipo de gráficos, cada fila representa una muestra y cada columna representa un gen. El color y la intensidad de las cajas se utilizan para representar cambios (no valores absolutos) de la expresión génica. En esta ocasión, el lila representa genes regulados hacia arriba y el azul representa genes regulados hacia abajo. El blanco representa la expresión inalterada.

Aunque la gran cantidad de datos dificulte la comprensión del gráfico, no se pretende entrar mucho en detalle. Simplemente, pretendemos mostrar que es un tipo de gráfico para mostrar la información que disponemos.

Aunque distribución de los datos en las dos clases de supervivencia es muy similar para la mayoría de genes, observamos diferencias destacables en alguno de ellos. Por ejemplo: ers1, Contig56678_RC o NM_001609.

Mencionar que solo se han representado 100 de los 1554 genes que contiene el conjunto de datos.

Los genes que tienen más valores atípicos son: _NM002509, _NM001942 y _NM000509, en concreto, más de 50.

A continuación, mostramos como se correlacionan los genes con la variable objetivo _survival5years.

El gráfico de la correlación entre la variable objetivo y las características genéticas muestra como una distribución bastante normal. Aunque la mayoría de las características no se correlacionan, algunas de ellas estan correlacionadas con un valor superior a 0.3 absoluto.

Sin duda alguna, este gráfico no es interpretable...

De forma más precisa, nos centramos en mostrar únicamente aquellas variables genéticas que están más correlacionadas en valor absoluto con la variable objetivo _survival5years.

Las variables genéticas más correlacionadas positivamente son _NM001333, _NM018410 y _NM006096, mientras que las más correlacionadas negativamente son 0.372706, 0.372706 y 0.369567.

Teniendo en cuenta la alta dimensionalidad de estos datos, nos planteamos reducirla aplicando métodos de reducción de la dimensionalidad al conjunto de datos genéticos.

El objetivo es reducir el conjunto de atributos genéticos a un nuevo conjunto con menos dimensiones, que contengan, sin embargo, la máxima información posible presente en los atributos originales. Para hacerlo parecido al otro conjunto de datos de este proyecto, definimos el número de componentes a 100.